OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Le 10 Mai 2024 à 16h16

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

Dans le procès qui oppose l'organisation américaine Authors Guild à OpenAI, des documents descellés révèlent que l'entreprise de Sam Altman a affirmé à la FTC avoir détruit toutes ses copies des jeux de données contenant des milliers de livres sur lesquels elle a entrainé ses grands modèles de langage. Pour l'Authors Guild, OpenAI a détruit une preuve directe du contenu copyrighté qu'elle a utilisé pour entrainer ses modèles.

OpenAI ne voulait pas que ces documents soient publiés. Mais finalement, la justice américaine n'a pas suivi l'avis de l'entreprise. Ils proviennent d'un des multiples procès intentés contre OpenAI pour violation de copyright lors de l'entrainement de ses modèles de langage. Ces documents révèlent que l'entreprise a détruit des jeux de données visés par la plainte, comme l'a découvert Business Insider.

Plainte de nombreux auteurs américains

L'organisation américaine Authors Guild, qui rassemble environ 9 000 membres, a porté plainte en septembre 2023 contre l'entreprise aux côtés d'auteurs célèbres comme George R.R. Martin, Michael Connelly, David Baldacci, Mary Bly, Sylvia Day ou encore Roxana Robinson (pdf).

Dans ce document, les plaignants ciblent en particulier l'utilisation de trois jeux de données utilisés par l'entreprise : « OpenAI admet que parmi les jeux de données "d'entraînement" qu'elle a utilisés pour "entraîner" le modèle [GPT-3] figuraient "Common Crawl" et deux "corpus de livres basés sur l'internet" de "haute qualité" qu'elle appelle "Books1" et "Books2" », citant un article scientifique des chercheurs de l'entreprise.

Mais, si le contenu de Common Crawl est connu (car disponible en accès libre), ceux de Books1 et Books2 ne le sont pas. En effet, ils ont été créés en interne à OpenAI pour entrainer ses modèles de façon unique et notamment GPT-3, le grand modèle de langage sur lequel l'entreprise s'est appuyée, à l'époque, pour sortir ChatGPT.

Des pièces à conviction détruites ?

Après plusieurs mois infructueux de recherche d'information sur Books1 et Books2, car OpenAI se retranchait derrière leur « confidentialité », l'Authors Guild a pu obtenir de l'entreprise de Sam Altman « qu'elle avait détruit toutes ses copies de books1 et books2, et que les deux chercheurs d'OpenAI responsables de la création de ces ensembles de données ne sont plus employés » par la société (PDF). Cette destruction aurait eu lieu mi 2022.

Pour l'association de défense des droits des auteurs américains, « étant donné qu'OpenAI a détruit les preuves directes du contenu des books 1 et 2, ces anciens employés sont d'une importance cruciale dans cette affaire ». Elle a donc demandé à l'entreprise leur identité et l'accuse de ne pas donner suffisamment d'information pour les identifier.

Les avocats de l'Authors Guild en profitent pour demander l'accès aux réponses d'OpenAI à la Federal Trade Commission (FTC) lors de différentes enquêtes de l'agence indépendante américaine. Celles-ci pourraient, en effet, contenir les informations que l'organisation cherche.

Destruction « avant litige »

Mais OpenAI se défend (PDF) en expliquant qu'elle a apporté à l'Authors Guild des informations sur ces deux chercheurs et qu'elle est prête à répondre à ses questions si elles n'étaient pas suffisamment claires.

Elle ajoute que « les jeux de données Books1 et Books2 ont été supprimés pour cause de non-utilisation avant qu'un litige n'ait été intenté contre OpenAI, et qu'OpenAI a activement enquêté pour déterminer si elle pouvait trouver d'autres copies des jeux de données ou d'autres documents à partir desquels les jeux de données peuvent être reconstruits ».

OpenAI s'oppose donc à ce que l'Authors Guild puisse accéder à ses réponses données à la FTC dans des enquêtes se concentrant sur les données personnelles et les aspects liés au consommateur, informations « sans rapport avec la présente affaire ».

Dans une déclaration citée par Business Insider, OpenAI affirme que « les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à l'aide de ces jeux de données » et ajoute que « ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022 ».

Il n'en reste pas moins que, dans sa réponse récente à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux – il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».

Commentaires (9)

Winderly Abonné

Le 10/05/2024 à 20h17

"OpenAI a détruit les jeux de données de livres sur lesquelles elle a entrainé ses premiers modèles"

Pourquoi lesquelles est accordé avec les données plutôt que les jeux ?

"des documents descellés révèle"

Pas d'accord pluriel ?

"Ce sont des documents qu'OpenAI ne voulait pas qu'ils soient publiés."

Pourquoi ça doit être si alambiqué.

"il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright"

C'est fameux.

Martin Clavey Équipe

Le 10/05/2024 à 21h34

#1.1

Oups, c'est corrigé... Merci.

Erwan123 Abonné

Le 11/05/2024 à 15h20

#1.2

À la fin de chaque article, il y a un bouton bien en évidence qui s'appelle "Signaler une erreur".

Ça évite de retrouver ensuite ce genre de commentaire dans les commentaires justement.

Merci.

Le 11/05/2024 à 17h47

#1.3

Erwan123

Lorsque je ne suis pas sur de moi (c'est le cas ici), je préfère avoir des avis supplémentaires.

Le 12/05/2024 à 08h51

#1.4

Winderly

Modifié le 12/05/2024 à 16h11

Historique des modifications :

Posté le 12/05/2024 à 08h51

Là, je vais l'encadrer ce commentaire !!

" Hey hey tout le monde, svp, svp, j'ai une question, parce que j'ai un peu oublié : Le COD placé avant le verbe AVOIR, il doit s'accorder ou pas ? Je sais plus... "

Désolé, mais avec ce genre de réponse, tu t'enfonces encore plus lamentablement.

Une réponse qui aurait été un tout petit peu meilleure (à mon humble avis):

" ha, Ok ,je n'avais pas remarqué, je ne connaissais pas cette fonctionnalité. Merci du conseil pour les prochaines fois"

Après chacun est adulte ici (je pense), fais comme il veut et surtout donne bien l'image qu'il a envie de donner aux autres...

" Il faudrait penser à grandir, il faudrait penser à grandir quand même" (Cigare à la main avant de se faire botter le )

(OSS 117 - 2006)

Le 12/05/2024 à 10h36

#1.5

J'ai certainement fait quelque chose méritant ce déchainement de haine, mais j'ignore quoi.
J'envisage sérieusement de te mettre sur liste de blocage.

Le 12/05/2024 à 16h11

#1.6

Désolé, ma réaction était clairement exagérée (répondu sous le coup de l'émotion) et je m'en excuse sincèrement. C'était pas cool.

Mea culpa.

Modifié le 12/05/2024 à 20h15

Posté le 12/05/2024 à 16h11

Ta réponse était juste un peu hors sol

Ta réponse était juste un peu... hors sol

Posté le 12/05/2024 à 16h12

Ta réponse était juste un peu... hors sol mais bon

Posté le 12/05/2024 à 16h13

Désolé, ma réponse était clairement exagérée (répondu sous le coup de l'émotion) et je m'en excuse sincèrement.

Mes culpa

Posté le 12/05/2024 à 20h12

Désolé, ma réaction était clairement exagérée (répondu sous le coup de l'émotion) et je m'en excuse sincèrement.

Mes culpa

Posté le 12/05/2024 à 20h13

Désolé, ma réaction était clairement exagérée (répondu sous le coup de l'émotion) et je m'en excuse sincèrement.

Mea culpa.

Posté le 12/05/2024 à 20h14

Désolé, ma réaction était clairement exagérée (répondu sous le coup de l'émotion) et je m'en excuse sincèrement. C'était pas cool.

Mea culpa.

SebGF Abonné

Le 12/05/2024 à 09h57

C'est quand même une remarque intéressante.

Les USA ont aussi une grosse visibilité en matière de production d'IA (vu que les géants de la tech sont US et se sont tous engouffrés dedans tôt ou tard) et c'est clairement le secteur économique porteur du moment. On en bouffe à toutes les sauces, ces produits sont intégrés jusque dans votre grille-pain, et ça fait les choux gras de Nvidia notamment.

On a donc deux intérêts économiques forts entre le protectionnisme de la propriété intellectuelle et le business de l'IA qui entrent en confrontation. Je me demande ce que ça pourrait amener, car mécaniquement, l'un va freiner l'autre en l'état actuel des choses.

RuMaRoCO Abonné

Le 13/05/2024 à 14h08

Si je métaphorise, A reproche à B d'avoir fait le ménage de chez lui alors que A le soupçonne B d'avoir commis un meurtre.
B répond au enquêteurs qu'il a indiqué à A la marque de la lessive utilisé et qu'il a fait le ménage avant que A n'interpelle à la police.

Est-ce une bonne analogie ?

Catégories

Nous suivre

À propos

OpenAI a détruit les jeux de données de livres sur lesquels elle a entrainé ses premiers modèles

Plainte de nombreux auteurs américains

Des pièces à conviction détruites ?

Destruction « avant litige »

Sommaire de l'article

Introduction

Plainte de nombreux auteurs américains

Des pièces à conviction détruites ?

Destruction « avant litige »

Comment OpenAI évite toute critique de ses anciens employés

La justice britannique autorise Julian Assange à faire appel de son extradition aux États-Unis

Le nickel, un enjeu d’indépendance technologique en Nouvelle-Calédonie

Blue Origin envoie six astronautes dans l’espace

Ubuntu 24.10 : destination Wayland et chiffrement intégral du disque

IA générative : le ton monte entre l’Europe et Microsoft

iFixit démonte l’iPad Pro 13 et le Pencil Pro, qui en prend pour son grade

Winamp va devenir open source

666e édition des LIDD : Liens Intelligents Du Dimanche

#Flock tease son strip

Commentaires (9)

Historique des modifications :

Historique des modifications :